尽管最近的自动文本识别取得了进步,但在历史手稿方面,该性能仍然保持温和。这主要是因为缺乏可用的标记数据来训练渴望数据的手写文本识别(HTR)模型。由于错误率的降低,关键字发现系统(KWS)提供了HTR的有效替代方案,但通常仅限于封闭的参考词汇。在本文中,我们提出了一些学习范式,用于发现几个字符(n-gram)的序列,这些序列需要少量标记的训练数据。我们表明,对重要的n-gram的认识可以减少系统对词汇的依赖。在这种情况下,输入手写线图像中的vocabulary(OOV)单词可能是属于词典的n-gram序列。对我们提出的多代表方法进行了广泛的实验评估。
translated by 谷歌翻译
在本文中,我们提出了一个文本降低不变的自动编码器(Text-Diae),这是一种旨在解决两个任务的自我监督模型,即文本识别(手写或场景文本)和文档图像增强。我们首先采用基于变压器的体系结构,该体系结构将三个借口任务作为学习目标,在预训练期间必须在不使用标签数据的情况下进行优化。每个借口目标都是专门针对最终下游任务量身定制的。我们进行了几项消融实验,以确认所选借口任务的设计选择。重要的是,所提出的模型并未基于对比损失表现出先前最新方法的局限性,而同时需要更少的数据样本来收敛。最后,我们证明我们的方法超过了手写和场景文本识别和文档图像增强的现有监督和自我监督的设置中的最新设置。我们的代码和训练有素的模型将在〜\ url {http:// on_accepters}上公开提供。
translated by 谷歌翻译
在低资源方案中的手写文本识别(例如具有稀有字母的手稿)是一个具有挑战性的问题。主要困难来自很少的注释数据和有限的语言信息(例如词典和语言模型)。因此,我们提出了一些基于学习的手写识别方法,该方法大大降低了人类劳动注释过程,只需要每个字母符号的图像很少。该方法包括检测文本图像中给定字母的所有符号,并解码获得的相似性得分与转录符号的最终顺序。我们的模型首先是在与目标域不同的任何字母内生成的合成线图像上预估计的。然后应用第二个训练步骤以减少源数据和目标数据之间的差距。由于这种重新训练将需要数千个手写符号以及其边界框的注释,因此我们建议通过无监督的渐进学习方法避免这种人类的努力,从而自动将伪标签分配给非宣布数据。对不同手稿数据集的评估表明,我们的模型可以导致竞争成果,而人类努力大大减少。该代码将在此存储库中公开可用:\ url {https://github.com/dali92002/htrbymatching}
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
现有的多模式应力/疼痛识别方法通常独立地从不同模态中提取特征,因此忽略了交叉模式相关性。本文提出了一个新的几何框架,用于利用对称阳性定位(SPD)矩阵作为一种表示形式的多模式应力/疼痛检测,该代表结合了协方差和交叉稳定性的生理和行为信号的相关关系。考虑到SPD矩阵的Riemannian流形的非线性,众所周知的机器学习技术不适合对这些矩阵进行分类。因此,采用切线空间映射方法将派生的SPD矩阵序列映射到可将基于LSTM的网络用于分类的切线空间中的向量序列。提出的框架已在两个公共多模式数据集上进行了评估,这两者都取得了压力和疼痛检测任务的最新结果。
translated by 谷歌翻译
端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
随着Covid-19的周期性上升和堕落和受其后果影响的许多国家,科学家,研究人员和世界各地的医生都是巨大的工作。迅速干预敏锐需要解决对疾病的不合情理传播。通过应用深度学习算法的基础,实施人工智能(AI)对数字健康区对数字健康区进行了重大贡献。在本研究中,提出了一种新的方法,通过使用深度学习算法的集成,特别是卷积神经网络(CNN)模型来自动诊断Covid-19。在该提议的框架中使用了几种CNN模型,包括VGG16,VGG19,InceptionResNetv2,Inceptionv3,Reset50和Densenet201。 VGG16型号优于鞋底的其余部分,精度为85.92%。与VGG16模型相比,我们的结果在其余的模型中显示了相对较低的精度,这是由于所使用的数据集的尺寸较小,除了仅用于VGG16型号的网格搜索超参数优化方法。此外,我们的结果是准备的,并且可以通过进一步扩展数据集来增强所有模型的准确性,并调整合适的超参数优化技术。
translated by 谷歌翻译
无创医学神经影像学已经对大脑连通性产生了许多发现。开发了几种实质技术绘制形态,结构和功能性脑连接性,以创建人脑中神经元活动的全面路线图。依靠其非欧国人数据类型,图形神经网络(GNN)提供了一种学习深图结构的巧妙方法,并且它正在迅速成为最先进的方法,从而导致各种网络神经科学任务的性能增强。在这里,我们回顾了当前基于GNN的方法,突出了它们在与脑图有关的几种应用中使用的方式,例如缺失的脑图合成和疾病分类。最后,我们通过绘制了通往网络神经科学领域中更好地应用GNN模型在神经系统障碍诊断和人群图整合中的路径。我们工作中引用的论文列表可在https://github.com/basiralab/gnns-inns-intwork-neuroscience上找到。
translated by 谷歌翻译
我们为RS-HDMR-GPR提供了一个Python实现(随机采样高维模型表示高斯进程回归)。该方法构建具有较低维度术语的多变量函数的表示,作为耦合顺序的扩展,或者仅使用仅给定维度的术语。特别是促进从稀疏数据恢复功能依赖性。代码还允许丢弃变量的缺失值,并且有用的HDMR术语的有用数量的显着修剪。该代码还可用于估计输入变量的不同组合的相对重要性,从而添加对一般机器学习方法的洞察元素。该回归工具的能力在涉及合成分析功能,水分子的潜在能量表面,材料(结晶镁,铝和硅)和金融市场数据的潜在能量表面进行了证明的能力。
translated by 谷歌翻译